刘海涛教授:依存关系与语言网络
The following article is from 科学出版社 Author 刘海涛
刘海涛,国际世界语学院院士,教育部“长江学者”特聘教授,国务院政府特殊津贴获得者。浙江大学求是特聘教授,博士生导师;广东外语外贸大学云山领军学者,北京语言大学特聘教授。两次获省优秀博士论文指导教师,国内外多种语言学出版物的编委会成员。连续八年入选爱思唯尔“中国高被引学者”榜单。用多种语言在数十种文、理、工出版物发表过涉及数十种人类语言的成果300余篇(部),被WOS核心库收录100多篇,多篇论文入选ESI热点论文与高被引论文。12项成果获教育部与省级社科奖。
过去十多年来,基于依存树库等真实语言资源,我们的团队用多种语言在数十种国内外刊物发表了涉及数十种语言的上百篇文章。这些成果发表后,得到了同行的认可与引用。其中,有12 项研究获得了教育部与省级社会科学奖,多篇论文入选了ESI 热点论文与高被引论文。笔者本人也连续八年入选爱思唯尔(Elsevier)“中国高被引学者”(Highly Cited Chinese Researchers)榜单。我们在Glottometrics、Journal of Cognitive Science、Journal of Chinese Linguistics、Language Sciences 等期刊上发表的文章,在Web of Science 上的被引数目前均在期刊相应年份之后刊发的全部文章中位列首位。由于这些研究成果大多是用英文在国际期刊上发表的,因此在这里有必要先简要介绍一下这些研究的情况。
句法结构可从层级性和线性两方面进行研究。层级性是人类语言的重要特性。句子由词组成,但词在句中的重要性是不一样的,是分层次的。通过对多种语言句法标注语料库的分析,我们发现人类语言句子中各个层级的词语的出现频率是有规律的,这些分布函数中的参数可能反映了人类语言结构或类型的差别。随着层级数的增大,上一层词支配下一层词的数量存在逐渐降低的趋势。在此基础上,我们也提出了衡量句子结构树层级复杂度的指标,并对依存结构树的树宽、树高和句长之间的协同关系进行了考察。从句子的线性特征看,我们不仅创新性地提出了一些数据驱动的语言研究方法和计量指标,而且也用这些方法与指标对数十种语言进行了研究。
▲ “The small streams make the big rivers.”的依存树
具体说来,我们提出了一种基于依存句法树库计算依存距离的方法,并采用20 种语言的真实语料验证了以下三个假设:
第一,人类语言分析机制偏好能将句子平均依存距离(Mean Dependency Distance,MDD)最小化; 第二,人类语言存在一个平均依存距离的阈值; 第三,语法与认知的协作使得语言的依存距离保持在此阈值内。
研究发现,在所研究的20 种语言中,汉语的依存距离最大。一种语言的平均依存距离可能也与语言的类型有关。该研究不仅在世界上首次使用数十种语言的真实语料验证了依存距离最小化是人类语言句子结构的一个普遍模式,而且也用大量多语种语料证实了认知机制影响语言结构模式或认知本身隐于语法之中的观点,将语言普遍性与认知普遍性通过数据联系在了一起。研究提出了一种基于依存树库的语言类型学研究方法,并进行了相应的实证研究,发现语序类型是连续的,而不是离散的,开辟了用大数据进行语言类型研究的新路子。这种基于真实的标注语料研究语言类型的方法被麻省理工学院Massachusetts Institute of Technology,MIT)等机构的学者称为“刘-有向性”(Liu-Directionalities)指标,这种方法不仅是一种新的探索句法参数的概率方法,也是一种新颖的、先进的现代语言类型学方法。
▲ 20 种语言的MDD
其中,依存距离可被视为一种计算认知科学的指标,而依存方向则为基于真实语料的语言类型研究提供了可量化的手段。为了使这两个指标更坚实,我们调查了影响依存距离和依存方向的三大因素:句长、语体、标注方式。研究表明,依存距离的概率分布不受句长、语体和标注方式的影响,依存方向是一种比依存距离更可靠的语言分类指标。拿句长来说,无论句子长短,汉语的平均依存距离总是高于英语,虽然两种语言中相邻依存关系的数量总体相当,但随句长变化的趋势是有差别的。句子越长,其平均依存距离也越大,但增长速度非常缓慢,这是因为依存距离同时受工作记忆与语法的约束,不可能无限制增长。
我们也创新性地采用了标注方式和语料类型均不同的句法树库研究一种语言的计量研究方法,发现汉语的依存距离均值约为2.84,汉语中40%~50%的依存关系不是在相邻的词之间形成的,汉语是一种支配词置后略占优势的混合型语言;汉语支配词居前的依存距离均值明显大于支配词置后的依存距离均值。除此之外,汉语也是我们研究配价与依存距离、组块与句子复杂度、语言多层级分布规律的主要语言资源,我们也用依存距离最小化更好地解释了人在处理诸如“咬死猎人的狗”之类的歧义句时的心理偏好。
▲ 20 种语言的MDD 支配词居后分布
在探寻依存距离最小化的形成机理以及语言系统内部各子系统间的复杂关系方面,我们采用多种语言语料对相关问题进行了量化实证研究,不仅对依存距离最小化这一人类语言普遍特征的形成机理进行了多角度的探索,也发现了一些新的规律。例如,在对比研究自然语言与随机语言的依存距离分布时,发现自然语言符合右截尾Zeta 分布,随机语言则没有这样的特点;自然语言的平均依存距离最小;依存句法树的投影性特征能够有效缩减依存距离。我们还研究了依存关系、支配词与从属词、动词作为支配词、名词作为从属词、语篇关系、语义角色关系等的概率分布,发现它们大多符合Zipf-Alekseev 分布规律。这些语言计量研究表明,人类语言在多种层级上均展现出了自适应系统的特征与规律。
同时,我们考察了30 余种人类语言真实语料,发现短句依存距离分布一般符合指数分布(exponential distribution,ED),而长句则更倾向于幂律分布(power law distribution,PLD)。这说明当句子变长时,在使用者的认知机制驱动下,语言系统会启动一种自适应机制,使得句子的依存距离尽可能变小,从而实现依存距离最小化这个人类语言系统运作的小目标。计算机仿真和真实语言结合的研究显示,组块就是人们在处理长句时,提高交际效率、降低句子难度的一种动态结构或自适应机制。本书(《》,刘海涛著. 北京:科学出版社,2022.8)有关研究得到了几位审稿人的高度评价,评语中不乏“创新的想法”“重要的一步”“原创的工作”“开拓性的研究”等表述。
▲ 30 种语言的拟合模型与句长的关系
以上这些研究与发现,一方面扩大了我们对人类语言线性结构模式和规律的认识,而且对于发现人类语言的结构与演化规律、探索语言作为一种复杂适应系统的运行机制也都具有较大的科学价值;另一方面也有助于构建更好的自然语言处理系统和解决某些应用语言学的关键问题。这些规律也为探索语言与认知、语言与思维的关系提供了更加坚实的实证基础,对从语言行为结果中发现人类的认知规律以及从人类认知的角度解释语言行为均具有启示意义。我们受邀为国际权威学术刊物《生命物理学评论》(Physics of Life Reviews)(JCR 影响因子为13.84)所撰写的题为《依存距离:自然语言句子模式的新视角》(“Dependency Distance: A New Perspective on Syntactic Patterns in Natural Languages”)的长文(2017)刊出不久后,便进入ESI 热点及高被引论文榜单,成为国际计算认知科学领域的重要参考文献,目前在Scopus 引文数据库中已被人文社会科学、理工农医等18 个学科的研究所引用。
当然,依存距离从来都不是一个简单的距离问题,也不是一个纯粹的学术问题。2018 年,揭春雨和刘美君在其主编的《实证和语料库语言学前沿》中,提到MIT 团队2015 年在PNAS 上发表的有关依存距离的论文“因没有引用刘海涛更早发表的基于20 种语言的语料库的类似发现而一时闹得沸沸扬扬,名声大噪。后来,PNAS 非常罕有地提出更正、补引刘文”。有趣的是,时间都过去好多年了,这个问题前些日子又在推特上被爆出来,让人闻到了一点“炸药”的味道。为什么依存距离的多语实证研究会和“炸药奖”(诺贝尔奖)有联系呢?回到2015 年,在MIT 的依存距离文章在线发表的当天,Science 杂志网站便推出了相关报道。随后,又有许多知名媒体跟进报道,其中一家报道的标题颇为诱人——“一种语言共性为富有争议的乔姆斯基理论带来证据”。人们激动的原因在于,这可能是第一个支持普遍语法的、涉及数十种语言的实证研究。诺姆·乔姆斯基(Noam Chomsky)是目前在世的被引率最高的学者之一,很多人认为如果其普遍语法可以得到实证支持,那他大概率是有机会获得诺贝尔奖的。按照诺贝尔奖的一般原则,验证理论的学者也是有机会一起获奖的。因此,MIT 团队的依存距离研究引起如此轰动,也不难理解。然而,这一研究的主要发现几乎在我们2008 年的文章中都可找到,但文中却没有提及我们的研究。这当然从哪一个角度都是说不过去的,于是就有了延续至今的故事。
说到诺贝尔奖,2021年的物理学奖颁给了研究复杂系统的三位学者后,各种有关复杂系统的微信公众号便极为活跃,其中有两篇推文的标题是“他们破译了地球气候及其他复杂系统的隐秘规律”和“复杂系统分析利器—网络科学”。把这两个标题连起来看会更有意思,一是复杂系统研究的目的是探求系统的隐秘规律;二是分析复杂系统需要工具,而网络科学便是这样的利器。如果语言是一个复杂系统,那网络科学或许就是发现语言系统隐秘规律的利器。这一点使笔者想起了自己十年前的一篇文章的标题—“语言网络:隐喻,还是利器?”因此,无论从哪一方面看,采用网络科学的方法研究语言可能都是必要的。
我们对语言网络的研究大致可分为以下三类:第一,语言网络的整体特征,这也是网络科学作为研究复杂系统利器的主要应用场景;第二,语言网络的局部特征,重点关注局部与整体的关系,特别是局部变化如何影响整体特征的问题;第三,语言网络的应用,主要探寻用网络科学的方法能否解决语言学的基本问题。
实事求是地讲,这些研究具有鲜明的大数据、人工智能、新文科、数字人文、交叉学科等时代特征,也充分展现了我们团队的学术特点:多语种大规模真实语料、交叉(跨)学科研究方法、人类语言普遍规律的探寻、学术成果的国际化。所有这些听起来不错的元素使我们认为,这些大多发表在国外的成果,也许会对其他有志于在国际舞台上展现中国语言学家的风姿、有志于站在祖国大地向世界发出中国声音的同行,具有一定的参考价值。
借助大规模真实语料探究人类语言的本质规律及其机制,是数智时代语言学家的主要任务之一。本书精选了作者及合作者近年来的研究成果,较为系统、全面地展示了以大规模依存树库为基础,围绕语言的线性结构和网络结构对语言这一“人驱复杂适应系统”所做的探索,其中包括已在相关领域得到广泛认可的“依存距离最小化”和“依存方向连续统”等。全书内容丰富、结构明晰、友好易读,较好地回答了“什么是数据驱动的语言研究”、“为什么要开展相关研究”,以及“应该如何开展”等问题。本书不仅适合作为语言学相关专业的教学用书,也可作为人工智能、自然语言处理、认知科学、网络科学等领域研究者的参考读物。
1.相关阅读
2.工具方法
Journey into Journals——国际期刊论文写作与发表
3.学术会议